112 research outputs found

    Le traitement automatique des langues face aux données textuelles volumineuses et potentiellement dégradées : qu'est-ce que cela change ?

    Get PDF
    National audiencePrĂ©tendre que le phĂ©nomĂšne rĂ©cent du Big Data a bouleversĂ© thĂ©oriquement et mĂ©thodologiquement le traitement automatique des langues (TAL) serait inexact : le TAL a connu sa derniĂšre vĂ©ritable rĂ©volution Ă  la fin des annĂ©es 80 - dĂ©but des annĂ©es 90. C'est en effet Ă  cette pĂ©riode que s'est opĂ©rĂ© un changement de paradigme, un passage du rationalisme vers l'empirisme, avec le " remplacement " des approches symboliques, Ă  base de rĂšgles, fondĂ©es sur l'expertise humaine par des approches empiriques fondĂ©es sur les donnĂ©es, oĂč la connaissance est extraite par des techniques d'apprentissage automatique, en particulier statistique. Permis par des capacitĂ©s de stockage et de traitement accrues des ordinateurs et la disponibilitĂ© de volumes consĂ©quents de textes au format numĂ©rique, ce bouleversement, mĂȘme s'il s'est Ă©tendu sur plusieurs annĂ©es, a Ă©tĂ© en fait assez profond : passage d'un TAL trĂšs linguistique oĂč l'on cherchait Ă  comprendre - expliquer les jugements de grammaticalitĂ© dont sont capables les locuteurs natifs d'une langue, construire et manipuler des reprĂ©sentations assez Ă©laborĂ©es du sens... - Ă  un TAL " trĂšs statistique " oĂč l'on fait Ă©merger des connaissances grĂące Ă  l'observation Ă  grande Ă©chelle, au comptage..., et oĂč l'on extrait des reprĂ©sentations de " sens utile " pour des traitements applicatifs. Affirmer que les volumes actuels de donnĂ©es Ă  l'Ă©chelle du Big Data n'ont eu et n'ont aucun impact sur le TAL serait cependant Ă©galement faux. Les donnĂ©es textuelles Ă  traiter se dĂ©clinent Ă  l'aune des 3 V (variĂ©tĂ©, volume, vĂ©locitĂ©). Elles consistent bien sĂ»r en des documents Ă©crits, pages Web, emails et autres textes " traditionnels ", mais Ă©galement en contenus de blogs, de rĂ©seaux sociaux, en sms, en documents audio transcrits automatiquement, ce qui correspond donc Ă  des types et des qualitĂ©s de langue trĂšs divers. Pour ne citer que quelques chiffres donnant tant une idĂ©e des volumes que de la vitesse d'Ă©volution de ceux-ci, nous pouvons par exemple nous rĂ©fĂ©rer Ă  ceux de Go-globe.com de juin 2011, citĂ©s Ă  davidfayon.fr/2011/croissance-du-web-une-minute, qui, quoique un peu anciens, sont dĂ©jĂ  extrĂȘmement parlants : crĂ©ation par minute de 60 blogs, de 98000 messages sur Twitter, de 510000 commentaires sur Facebook, de 168 millions d'emails ou de 600 vidĂ©os sur YouTube. À l'heure actuelle, ces nombres sont encore plus impressionnants. Ces volumes Ă©normes de donnĂ©es textuelles ont accru le phĂ©nomĂšne dĂ©crit prĂ©cĂ©demment de passage du TAL Ă  l'empirisme, accompagnĂ© du renforcement de certains champs du domaine - parfois avec un regard nouveau - et de l'Ă©mergence d'applications nouvelles. Dans ce chapitre, nous revenons en dĂ©tail sur l'impact de ce dĂ©luge de donnĂ©es sur le TAL en dĂ©butant par un rappel des spĂ©cificitĂ©s des donnĂ©es textuelles au sein de ce monde du Big Data dans lequel les donnĂ©es volumineuses auxquelles il est fait rĂ©fĂ©rence sont frĂ©quemment (semi-)structurĂ©es ; ceci nous permet de mieux comprendre l'intĂ©rĂȘt mais aussi la difficultĂ© d'accĂ©der au contenu sĂ©mantique de ces donnĂ©es particuliĂšres. Nous nous penchons ensuite sur la façon dont les chercheurs en TAL reprĂ©sentent et exploitent ces donnĂ©es massives pour en faire Ă©merger la connaissance utile pour l'objectif visĂ©. Nous prĂ©sentons ensuite successivement d'une part des applications qui tentent de trouver des solutions pour faire face au dĂ©luge de donnĂ©es disponibles, d'autre part certaines qui, elles, cherchent Ă  tirer profit de cette masse d'informations et Ă  exploiter sa redondance. Nous concluons en rappelant les grandes lignes de l'Ă©volution du TAL

    L'adaptation thématique d'un modÚle de langue fait-elle apparaßtre des mots thématiques?

    Get PDF
    International audienceWhereas topic-based adaptation of language models (LM) claims to increase the accuracy of topic-specific words within automatic speech recognition, this paper investigates why this wish is not always verified. After outlining the mechanisms of LM adaptation and automatic speech recognition, diagnosing elements are proposed along with solutions. In addition to a better accuracy on topic-specific words, results show better graph error rates and word error rates on a set of spoken documents with various topic

    Hierarchical topic structuring: from dense segmentation to topically focused fragments via burst analysis

    Get PDF
    International audienceTopic segmentation traditionally relies on lexical cohesion measured through word re-occurrences to output a dense segmen-tation, either linear or hierarchical. In this paper, a novel organization of the topical structure of textual content is proposed. Rather than searching for topic shifts to yield dense segmentation, we propose an algorithm to extract topically focused fragments organized in a hierarchical manner. This is achieved by leveraging the temporal distribution of word re-occurrences, searching for bursts, to skirt the limits imposed by a global counting of lexical re-occurrences within segments. Comparison to a reference dense segmentation on varied datasets indicates that we can achieve a better topic focus while retrieving all of the important aspects of a text

    Investigating domain-independent NLP techniques for precise target selection in video hyperlinking

    Get PDF
    International audienceAutomatic generation of hyperlinks in multimedia video data is a subject with growing interest, as demonstrated by recent work undergone in the framework of the Search and Hyperlinking task within the Mediaeval benchmark initiative. In this paper, we compare NLP-based strategies for precise target selection in video hyperlinking exploiting speech material, with the goal of providing hyperlinks from a specified anchor to help information retrieval. We experimentally compare two approaches enabling to select short portions of videos which are relevant and possibly complementary with respect to the anchor. The first approach exploits a bipartite graph relating utterances and words to find the most relevant utterances. The second one uses explicit topic segmentation, whether hierarchical or not, to select the target segments. Experimental results are reported on the Mediaeval 2013 Search and Hyperlinking dataset which consists of BBC videos, demonstrating the interest of hierarchical topic segmentation for precise target selection

    Are Morphosyntactic Taggers Suitable to Improve Automatic Transcription?

    Get PDF
    International audienceThe aim of our paper is to study the interest of part of speech (POS) tagging to improve speech recognition. We first evaluate the part of misrecognized words that can be corrected using POS information; the analysis of a short extract of French radio broadcast news shows that an absolute decrease of the word error rate by 1.1% can be expected. We also demonstrate quantitatively that traditional POS taggers are reliable when applied to spoken corpus, including automatic transcriptions. This new result enables us to effectively use POS tag knowledge to improve, in a postprocessing stage, the quality of transcriptions, especially correcting agreement errors

    IRISA and KUL at MediaEval 2014: Search and Hyperlinking Task

    Get PDF
    International audienceThis paper presents our approach and results in the hyper-linking sub-task at MediaEval 2014. A two step approach is implemented: relying on a topic segmentation technique, the first step consists in generating potential target segments; then, for each anchor, the best 20 target segments are selected according to two distinct strategies: the first one focuses on the identification of very similar targets using n-grams and named entities; the second one makes use of an intermediate structure built from topic models, which offers the possibility to control serendipity and to explain the links created

    Utilisation de la linguistique en reconnaissance de la parole : un Ă©tat de l'art

    Get PDF
    To transcribe speech, automatic speech recognition systems use statistical methods, particularly hidden Markov model and N-gram models. Although these techniques perform well and lead to efficient systems, they approach their maximum possibilities. It seems thus necessary, in order to outperform current results, to use additional information, especially bound to language. However, introducing such knowledge must be realized taking into account specificities of spoken language (hesitations for example) and being robust to possible misrecognized words. This document presents a state of the art of these researches, evaluating the impact of the insertion of linguistic information on the quality of the transcription. ––– Pour transcrire des documents sonores, les systĂšmes de reconnaissance de la parole font appel Ă  des mĂ©thodes statistiques, notamment aux chaĂźnes de Markov cachĂ©es et aux modĂšles N-grammes. MĂȘme si ces techniques se sont rĂ©vĂ©lĂ©es performantes, elles approchent du maximum de leurs possibilitĂ©s avec la mise Ă  disposition de corpus de taille suffisante et il semble nĂ©cessaire, pour tenter d'aller au-delĂ  des rĂ©sultats actuels, d'utiliser des informations supplĂ©mentaires, en particulier liĂ©es au langage. IntĂ©grer de telles connaissances linguistiques doit toutefois se faire en tenant compte des spĂ©cificitĂ©s de l'oral (prĂ©sence d'hĂ©sitations par exemple) et en Ă©tant robuste Ă  d'Ă©ventuelles erreurs de reconnaissance de certains mots. Ce document prĂ©sente un Ă©tat de l'art des recherches de ce type, en Ă©valuant l'impact de l'insertion des informations linguistiques sur la qualitĂ© de la transcription

    Évaluation d'une nouvelle structuration thĂ©matique hiĂ©rarchique des textes dans un cadre de rĂ©sumĂ© automatique et de dĂ©tection d'ancres au sein de vidĂ©os

    Get PDF
    National audienceDans cet article, nous Ă©valuons, Ă  travers son intĂ©rĂȘt pour le rĂ©sumĂ© automatique et la dĂ©tection d'ancres dans des vidĂ©os, le potentiel d'une nouvelle structure thĂ©matique extraite de donnĂ©es textuelles, composĂ©e d'une hiĂ©rarchie de fragments thĂ©matiquement focalisĂ©s. Cette structure est produite par un algorithme exploitant les distributions temporelles d'apparition des mots dans les textes en se fondant sur une analyse de salves lexicales. La hiĂ©rarchie obtenue a pour objet de filtrer le contenu non crucial et de ne conserver que l'information saillante des textes, Ă  diffĂ©rents niveaux de dĂ©tail. Nous montrons qu'elle permet d'amĂ©liorer la production de rĂ©sumĂ©s ou au moins de maintenir les rĂ©sultats de l'Ă©tat de l'art, tandis que pour la dĂ©tection d'ancres, elle nous conduit Ă  la meilleure prĂ©cision dans le contexte de la tĂąche Search and Anchoring in Video Archives Ă  MediaEval. Les expĂ©riences sont rĂ©alisĂ©es sur du texte Ă©crit et sur un corpus de transcriptions automatiques d'Ă©missions de tĂ©lĂ©vision. ABSTRACT Evaluation of a novel hierarchical thematic structuring of texts in the framework of text sum-marization and anchor detection for video hyperlinking This paper investigates the potential of a novel topical structure of text-like data in the context of summarization and anchor detection in video hyperlinking. This structure is produced by an algorithm that exploits temporal distributions of words through word burst analysis to generate a hierarchy of topically focused fragments. The obtained hierarchy aims at filtering out non-critical content, retaining only the salient information at various levels of detail. For the tasks we choose to evaluate the structure on, the lost of important information is highly damaging. We show that the structure can actually improve the results of summarization or at least maintain state-of-the-art results, while for anchor detection it leads us to the best precision in the context of the Search and Anchoring in Video Archives task at MediaEval. The experiments were carried on written text and a more challenging corpus containing automatic transcripts of TV shows. MOTS-CLÉS : analyse de salves lexicales, hiĂ©rarchie de fragments thĂ©matiques, rĂ©sumĂ© automa-tique, dĂ©tection d'ancres. KEYWORDS: burst analysis, hierarchy of topical fragments, text summarization, anchor detection. (a) (b) (c) FIGURE 1 – ReprĂ©sentations gĂ©nĂ©riques (a) d'une segmentation thĂ©matique linĂ©aire, (b) d'une segmentation thĂ©matique hiĂ©rarchique dense classique, versus (c) celle d'une hiĂ©rarchie de fragments thĂ©matiquement focalisĂ©s. Les lignes verticales en pointillĂ©s illustrent les frontiĂšres des thĂšmes et sous-thĂšmes

    Utilisation de relations sémantiques pour améliorer la segmentation thématique de documents télévisuels

    Get PDF
    International audienceTopic segmentation methods based on a measure of the lexical cohesion can be applied as is to automatic transcripts of TV programs. However, these methods are less effective in this context as neither the specificities of TV contents, nor those of automatic transcripts are considered. The aim of this paper is to study the use of semantic relations to make segmentation techniques more robust.We propose a method to account for semantic relations in a measure of the lexical cohesion.We show that such relations increase the F1-measure by +1.97 and +11.83 for two data sets consisting of respectively 40h of news and 40h of longer reports on current affairs. These results demonstrate that semantic relations can make segmentation methods less sensitive to transcription errors or to the lack of repetitions in some television programs.Les mĂ©thodes de segmentation thĂ©matique exploitant une mesure de la cohĂ©sion lexicale peuvent ĂȘtre appliquĂ©es telles quelles Ă  des transcriptions automatiques de programmes tĂ©lĂ©visuels. Cependant, elles sont moins efficaces dans ce contexte, ne prenant en compte ni les particularitĂ©s des Ă©missions TV, ni celles des transcriptions. Nous Ă©tudions ici l'apport de relations sĂ©mantiques pour rendre les techniques de segmentation thĂ©matique plus robustes. Nous proposons une mĂ©thode pour exploiter ces relations dans une mesure de la cohĂ©sion lexicale et montrons qu'elles permettent d'augmenter la F1- mesure de +1.97 et +11.83 sur deux corpus composĂ©s respectivement de 40h de journaux tĂ©lĂ©visĂ©s et de 40h d'Ă©missions de reportage. Ces amĂ©liorations dĂ©montrent que les relations sĂ©mantiques peuvent rendre les mĂ©thodes de segmentation moins sensibles aux erreurs de transcription et au manque de rĂ©pĂ©titions constatĂ© dans certaines Ă©missions tĂ©lĂ©visĂ©es
    • 

    corecore